当前位置: 开发笔记 > 编程语言 > 正文

总和|本文_查询所有HIVE表分区数据量

作者：边怀珠大海 | 来源：互联网 | 2023-07-29 14:19

篇首语：本文由编程笔记#小编为大家整理，主要介绍了查询所有HIVE表分区数据量相关的知识，希望对你有一定的参考价值。文章目录

篇首语：本文由编程笔记#小编为大家整理，主要介绍了查询所有HIVE表分区数据量相关的知识，希望对你有一定的参考价值。

文章目录

概述
- 创建分区表
- 查看单个HIVE表分区的行数
- 查看单个HIVE表分区的行数和数据占用
- 批量查询HIVE表分区的行数和数据占用
补充

概述

查询HIVE表分区的数据占用和行数&＃xff0c;用于数据治理
通常&＃xff0c;每天一个分区&＃xff1b;
通常&＃xff0c;今天查看昨天分区数据量
本文日期分区字段为ymd

创建分区表

-- 创建多级分区表 DROP TABLE IF EXISTS t3; CREATE TABLE t3 (f1 STRING,f2 INT) PARTITIONED BY (ymd STRING COMMENT &＃39;年月日&＃39;,h INT COMMENT &＃39;时&＃39;); -- 插入数据 INSERT INTO TABLE t3 PARTITION(ymd&＃61;&＃39;2022-08-08&＃39;,h&＃61;8) VALUES (&＃39;ef&＃39;,9),(&＃39;hh&＃39;,13);

查看单个HIVE表分区的行数

SELECT COUNT(1) FROM 表 WHERE 分区&＃61;"分区值";

查看单个HIVE表分区的行数和数据占用

DESC FORMATTED 表 PARTITION(分区&＃61;"分区值");

分区属性	说明	备注	所在mysql表
PART_ID	分区唯一标识		PARTITIONS
PART_NAME	分区名称	例如`ymd&＃61;2022-08-08`	PARTITIONS
CREATE_TIME	分区创建时间	≤`transient_lastDdlTime`	PARTITIONS

numFiles	文件数		PARTITION_PARAMS
numRows	行数	`LOAD DATE`写分区时&＃xff0c;该值为`0`	PARTITION_PARAMS
rawDataSize	原始数据大小	`LOAD DATE`写分区时&＃xff0c;该值为`0`	PARTITION_PARAMS
totalSize	数据在HDFS的大小(不含副本)		PARTITION_PARAMS
numFilesErasureCoded		通常是`0`	PARTITION_PARAMS
transient_lastDdlTime	最近1次DDL时间	≥分区创建时间	PARTITION_PARAMS
COLUMN_STATS_ACCURATE		`LOAD DATE`写分区&＃xff0c;该值为`NULL` `INSERT`写分区&＃xff0c;该值为`"BASIC_STATS":"true"`	PARTITION_PARAMS

批量查询HIVE表分区的行数和数据占用

HIVE元数据存储在MySQL&＃xff0c;模型如下&＃xff1a;

E-R图

批量查询HIVE表分区的行数和数据占用的SQL

SELECT table_name ,PART_NAME AS partition_name ,create_time ,num_files ,num_rows ,raw_data_size ,total_size -- ,num_files_erasure_coded ,transient_last_ddl_time ,column_stats_accurate FROM ( -- 昨天分区 SELECT PART_NAME,PART_ID,TBL_ID,FROM_UNIXTIME(CREATE_TIME,"%Y-%m-%d %h:%i:%s") AS create_time FROM PARTITIONS WHERE PART_NAME&＃61;CONCAT("ymd&＃61;",DATE_FORMAT(DATE_SUB(CURRENT_DATE(),INTERVAL 1 DAY),"%Y-%m-%d")) )t1 INNER JOIN ( -- 库名.表名&＃xff08;筛选外部表&＃xff09; SELECT CONCAT(DBS.NAME,TBLS.TBL_NAME) AS table_name,TBL_ID FROM DBS INNER JOIN TBLS ON DBS.DB_ID&＃61;TBLS.DB_ID WHERE TBLS.TBL_TYPE&＃61;"EXTERNAL_TABLE" -- OR TBLS.TBL_TYPE&＃61;"MANAGED_TABLE" )t0 ON t1.TBL_ID&＃61;t0.TBL_ID INNER JOIN ( SELECT PART_ID ,MAX(IF(PARAM_KEY&＃61;"numFiles",PARAM_VALUE&＃43;0,NULL)) AS num_files ,MAX(IF(PARAM_KEY&＃61;"numRows",PARAM_VALUE&＃43;0,NULL)) AS num_rows ,MAX(IF(PARAM_KEY&＃61;"rawDataSize",PARAM_VALUE&＃43;0,NULL)) AS raw_data_size ,MAX(IF(PARAM_KEY&＃61;"totalSize",PARAM_VALUE&＃43;0,NULL)) AS total_size ,MAX(IF(PARAM_KEY&＃61;"numFilesErasureCoded",PARAM_VALUE&＃43;0,NULL)) AS num_files_erasure_coded ,MAX(IF(PARAM_KEY&＃61;"transient_lastDdlTime",FROM_UNIXTIME(PARAM_VALUE,"%Y-%m-%d %h:%i:%s"),NULL)) AS transient_last_ddl_time ,MAX(IF(PARAM_KEY&＃61;"COLUMN_STATS_ACCURATE",PARAM_VALUE,NULL)) AS column_stats_accurate FROM PARTITION_PARAMS GROUP BY PART_ID -- HAVING column_stats_accurate IS NOT NULL )t2 ON t1.PART_ID&＃61;t2.PART_ID;

table_name	partition_name	create_time	num_files	num_rows	raw_data_size	total_size	transient_last_ddl_time	column_stats_accurate
default.t3	ymd&＃61;2022-08-08/h&＃61;8	2022/8/29 10:44	1	2	9	11	2022/8/29 10:44	“BASIC_STATS”:“true”

补充

HIVE的LODA DATA和Sqoop的hive-import写进分区&＃xff0c;是冇计算行数的
建议&＃xff1a;HIVELODA DATA或Sqoophive-import到中间表&＃xff0c;再从中间表SELECT INSERT到ODS层
两个好处&＃xff1a;1、计算行数&＃xff1b;2、合并小文件

查询所有HIVE表行数

select distinct &＃96;PARAM_KEY&＃96; from &＃96;TABLE_PARAMS&＃96;;

查询所有HIVE表行数总和

推荐阅读

import
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23
import
利用Scrapy构建的数据采集与分析可视化系统

本文探讨了如何使用Scrapy框架构建高效的数据采集系统，以及如何通过异步处理技术提升数据存储的效率。同时，文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]

蜡笔小新 2024-11-23 16:56:38
import
Java实现凯撒密码的简易加解密程序

本文介绍了如何使用Java编程语言实现凯撒密码的加密与解密功能。凯撒密码是一种替换式密码，通过将字母表中的每个字母向前或向后移动固定数量的位置来实现加密。 ... [详细]

蜡笔小新 2024-11-24 15:16:47
io
HDU 2537 键盘输入处理

题目描述了一个名叫Pirates的男孩想要开发一款键盘输入软件，遇到了大小写字母判断的问题。本文提供了该问题的解决方案及实现方法。 ... [详细]

蜡笔小新 2024-11-24 11:01:59
import
使用Java计算两个日期之间的月份数

本文详细介绍了利用Java编程语言计算两个指定日期之间月份数的方法。文章通过实例代码讲解了如何使用Joda-Time库来简化日期处理过程，旨在为开发者提供一个高效且易于理解的解决方案。 ... [详细]

蜡笔小新 2024-11-23 20:44:50
import
iOS如何实现手势

这篇文章主要为大家展示了“iOS如何实现手势”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“iOS ... [详细]

蜡笔小新 2024-11-23 20:37:40
io
Excel技巧：单元格中显示公式而非结果的解决方法

本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题，包括使用快捷键和调整单元格格式两种方法。 ... [详细]

蜡笔小新 2024-11-23 18:06:16
import
深入解析Android联系人数据库设计：AbstractContactsProvider

本文探讨了Android系统中联系人数据库的设计，特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析，并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]

蜡笔小新 2024-11-24 18:04:54
import
Python 高级编程技巧：多线程与多进程的对比分析

本文探讨了在Python中多线程与多进程的性能差异，特别是在处理CPU密集型任务和I/O密集型任务时的表现。由于全局解释器锁（GIL）的存在，多线程在利用多核CPU方面表现不佳，而多进程则能有效利用多核资源。 ... [详细]

蜡笔小新 2024-11-24 17:41:05
lua
0基础lua学习（八）字符串

Lua字符串1.字符串常见形式字符串或串(String)是由数字、字母、下划线组成的一串字符。Lua语言中字符串可以使用以下三种方式来表示：•单引号间的一串字符。 ... [详细]

蜡笔小新 2024-11-24 17:04:56
io
java datarow_DataSet DataTable DataRow 深入浅出

本篇文章适合有一定的基础的人去查看，最好学习过一定net编程基础在来查看此文章。1.概念DataSet是ADO.NET的中心概念。可以把DataSet当成内存中的数据 ... [详细]

蜡笔小新 2024-11-24 15:10:22
io
Android 开发技巧：动态修改 strings.xml 文件中的字符串值

本文介绍了一种在 Android 开发中动态修改 strings.xml 文件中字符串值的有效方法。通过使用占位符，开发者可以在运行时根据需要填充具体的值，从而提高应用的灵活性和可维护性。 ... [详细]

蜡笔小新 2024-11-24 11:51:17
io
详解Linux命令：mysqlshow的使用方法

本文详细介绍了如何使用Linux下的mysqlshow命令来查询MySQL数据库的相关信息，包括数据库、表以及字段的详情。通过本文的学习，读者可以掌握mysqlshow命令的基本语法及其常用选项。 ... [详细]

蜡笔小新 2024-11-24 11:25:08
io
PHP Memcached 使用详解

本文详细介绍了如何在PHP中使用Memcached进行数据缓存，包括服务器连接、数据操作、高级功能等。 ... [详细]

蜡笔小新 2024-11-24 09:51:34
io
深入解析：Hive JDBC编程实践

本文详细介绍了如何通过JDBC连接Hive进行数据操作，包括Hive服务的启动、相关依赖的配置以及具体代码示例，适合对Hive和JDBC有一定了解的开发者阅读。 ... [详细]

蜡笔小新 2024-11-23 16:52:02

边怀珠大海

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章